检索结果

Select

1. 基于安全目录的文件保护机制

沈熳婷, 俞银燕, 汤帜, 崔晓瑜

北京大学学报（自然科学版） 2018, 54 (1): 14-24. DOI: 10.13209/j.0479-8023.2017.088

摘要（1142）

HTML （28）

PDF（pc）（678KB）（265）

针对现有的文件保护方法侧重于保护单个设备上文件信息的特点, 面向跨设备使用和保护文件信息的需求, 提出一种高效的基于安全目录的文件保护机制。该机制可动态地检测安全目录中的用户行为, 实时保护文件信息, 支持文件多设备安全共享。实验结果表明, 基于安全目录的文件保护机制具有良好的可用性、响应速率和存储性能。

相关文章 | 多维度评价 | 评论（0）

Select

2. 一种基于星型图的汉字镜像对称检测方法

廖媛, 吕肖庆, 孙建伶, 汤帜, 王勇涛

北京大学学报（自然科学版） 2016, 52 (1): 41-48. DOI: 10.13209/j.0479-8023.2016.015

摘要（1511）

HTML

PDF（pc）（1456KB）（914）

结合不同类型的汉字特征——尺度不变特征变换(SIFT)和轮廓信息, 提出一种基于星型图的汉字镜像对称检测方法。该方法利用基础对称元素构造一个加强关系有向图来描述不同对称元素之间的加强关系, 从而将检测汉字的显著对称轴问题转化为寻找具有局部最大权重的星型子图问题。实验结果表明, 与现有方法相比, 所提方法在汉字数据集上具有更好的检测效果。

相关文章 | 多维度评价 | 评论（0）

Select

3. PDF文档中的脚注识别研究

黎斯达, 高良才, 汤帜, 俞银燕

北京大学学报（自然科学版） 2015, 51 (6): 1017-1021. DOI: 10.13209/j.0479-8023.2015.087

摘要（1278）

针对PDF 文档的脚注识别问题, 提出一种自动识别脚注及其引用, 并建立它们之间匹配关系的方法。首先针对PDF 文档提取脚注的一系列特征, 包括页面布局、字体信息、语义信息等, 然后基于文档部件风格一致性, 利用聚类技术, 处理在不同文档中相异但在同一文档中相似的特征, 从而使得识别过程能够适应不同文档类型。此外, 利用脚注与引用的匹配结果为识别过程提供反馈, 进一步提高了识别准确性。在真实文档测试集上的实验结果表明, 所提方法对于PDF 文档的脚注识别取得较高的准确率和召回率。

相关文章 | 多维度评价 | 评论（0）

Select

4. 平面几何图形检索的关键问题研究

符松平, 吕肖庆, 刘璐, 冯天骁, 李克强, 汤帜

北京大学学报（自然科学版） 2015, 51 (6): 1008-1016. DOI: 10.13209/j.0479-8023.2015.086

摘要（1026）

PDF（pc）（692KB）（620）

基于计算机辅助教学领域中平面几何图形的识别和检索研究, 提出一套可行的完整解决方案，并对手绘图美化、基本图元检测、显著性分析、位置关系描述和匹配度计算等关键问题进行分析。在深入分析几何图各级特征的同时, 提出具有较强针对性的布局关系描述和复杂图形匹配的多种算法, 使得几何图形最终得以直接用于内容检索, 弥补了基于关键字检索技术在描述查询意图方面的不足。实验结果表明, 本文提出的解决方案不仅可行, 而且具有较高的准确度。

相关文章 | 多维度评价 | 评论（0）

Select

5. 一种结合有监督学习的动态主题模型

蒋卓人,陈燕,高良才,汤帜,刘晓钟

北京大学学报（自然科学版）

摘要（1207）

PDF（pc）（3346KB）（829）

针对传统主题模型存在的不足, 提出一种新的结合有监督学习的动态主题模型(Supervised Dynamic Topic Model, S-DTM)。该模型不仅能够随时间的变化对语言进行动态建模, 而且结合有监督学习技术, 在主题变分推理中加入标签约束, 从而建立主题与标签之间的映射关系, 提高主题的表达解释能力。通过在一个跨越25年“以自然语言处理领域的中文期刊论文为主导”的中文语料库上的实验, 证明该模型相较于静态的有监督主题模型和无监督的动态主题模型, 具有更好的语义解释概括能力, 能更准确地反映文档的主题结构, 更精确地捕捉主题?词汇概率分布的动态演化。

相关文章 | 多维度评价 | 评论（0）

Select

6. 版面相似中文表单的分类方法研究

王思萌,高良才,王悦涵,李平立,汤帜

北京大学学报（自然科学版）

Select

7. 一种无监督的中文漫画对白自动定位方法

刘冬,李鹿原,王勇涛,汤帜

北京大学学报（自然科学版）

摘要（932）

PDF（pc）（3419KB）（388）

针对中文漫画图像的特点, 提出一种无监督的中文漫画图像对白自动定位方法, 以满足中文漫画移动阅读的需求。不同于现有基于学习的方法, 该方法不需要训练集, 且具有较强的鲁棒性, 主要包括3个步骤: 1) 利用包围漫画图像文字的空白区域(气泡)的连通性进行气泡检测, 并在气泡中检测完整字符对; 2) 基于字符形状与字符排版规则的一致性, 聚类形成字符行或字符列, 并提取字体特征; 3) 联合多页漫画图像字体特征, 利用贝叶斯分类器检测多页漫画中的剩余字符。在包含900页漫画图像的数据集上进行实验, 结果表明, 该方法可以有效定位中文漫画图像中的对白区域, 取得比较满意的实验结果。

相关文章 | 多维度评价 | 评论（0）

Select

8. 中文电子文档的数学公式定位研究

林晓燕,高良才,汤帜

北京大学学报（自然科学版）

摘要（774）

PDF（pc）（536KB）（512）

区别于传统基于图像和西文文档的公式定位方法, 针对中文电子文档的特点, 提出一种基于机器学习和规则相结合的独立公式和内嵌公式的定位方法。设计了适合中文文档的页面分行策略和词块划分规则; 选择适合中文文档的公式特征和机器学习算法; 针对公式定位中的过分割问题, 提出行合并与词块合并等后处理手段。实验结果表明, 该方法可以有效地从中文电子文档中自动定位公式区域。此外, 构建了公开可用的中文数据集, 以促进不同数学公式定位方法间的相互比较及性能评估。

相关文章 | 多维度评价 | 评论（0）

Select

9. 基于笔端形状相似性的汉字字体识别

王晓,吕肖庆,汤帜

北京大学学报（自然科学版）

摘要（704）

PDF（pc）（521KB）（612）

提出一种基于笔端相似性的方法, 来解决在较大规模字体集上的单字符字体识别问题。该方法首先提取汉字笔画上的特定部位??笔端, 然后利用笔端形状作为汉字的字体特征, 对其进行识别。实验证明, 该方法不但在常用字体集合上的识别效果优于同类方法, 而且在扩展后的大字体集合上也能达到较高的识别率。

相关文章 | 多维度评价 | 评论（0）

Select

10. 版式电子文档表格自动检测与性能评估

房婧,高良才,仇睿恒,汤帜

北京大学学报（自然科学版）

摘要（636）

PDF（pc）（677KB）（479）

针对版式电子文档的特点, 提出一种表格线分割符和表格文本的布局特征相结合的表格定位方法, 并且对中英文档均有效。此外, 针对缺少表格定位自动评估体系, 构建了一个初具规模的公开数据集, 由中英文版式页面等比例组成, 对其标注基准结果, 并针对移动阅读应用场景提出一套评估准则。通过与现有两个开源表格定位项目的比较, 验证了新提出的表格定位方法的有效性和评估体系的实用性, 特别是对中文数据集获得了较好的结果。

相关文章 | 多维度评价 | 评论（0）

Select

11. SDDRM: 基于分段的电子文档动态版权管理

许东阳,汤帜,俞银燕

北京大学学报（自然科学版）

Select

12. 具有硬件适应性的多设备内容共享与版权保护方法

冯雪,俞银燕,汤帜

北京大学学报（自然科学版）

Select

13. 基于多级特征提取的中文文本图像压缩算法

胡奎,汤帜,高良才

北京大学学报（自然科学版）

摘要（671）

针对中文文本图像的特点, 提出了一种改进的压缩算法MC-JBIG2 。该算法首先对中文字符进行多级特征提取, 然后将提取到的特征数据用于一个级联聚类算法中以替代传统 JBIG2 中的模式匹配过程。实验表明, MC-JBIG2 改进了传统 JBIG2 算法对中文文本图像压缩的不足, 能够保证在内容无损的情况下提高对中文文本图像的压缩率, 同时该算法对英文本图像的压缩也有一定的改进。

相关文章 | 多维度评价 | 评论（0）

Select

14. 一种自动发现、分割与标注引文元数据的方法

高良才,汤帜,陶欣,房婧

北京大学学报（自然科学版）

摘要（759）

在总结现有的引文元数据抽取方法的基础上, 针对引文的排版惯例???引文在文档内部风格一致, 提出了一种新的引文元数据抽取方法。重点描述了以往研究中很少涉及的引文元数据的自动发现和分割, 探讨了风格一致性在引文元数据标注中的应用。实验结果表明此方法在引文元数据发现、分割和标注方面均取得了较好的效果。

相关文章 | 多维度评价 | 评论（0）

Select

15. XTrim: 一种基于XML Schema和微型数据块优化的XML压缩方法

仇睿恒,汤帜,胡薇,高良才

北京大学学报（自然科学版）

摘要（726）

提出了一种基于 Schema 和微型数据块优化的XML方法(XTrim)。XTrim对 XML Schema 信息进行优化, 并提出了最小化结构信息方法, 即利用优化后的 XML Schema 信息对 XML 文档的结构进行压缩, 同时改进了分组存储策略来提高压缩率。此外, XTrim优化了微型数据块的存储, 进一步提高了压缩效果。实验数据表明, 与一些现有的方法相比,XTrim 取得了更好的压缩效果。

相关文章 | 多维度评价 | 评论（0）

Select

16. 一种基于聚类技术的图书目录识别方法

高良才,汤帜,林晓帆,俞银燕,房婧

北京大学学报（自然科学版）

摘要（539）

分析了目录识别研究的现状, 在总结当前技术优缺点的基础上, 提出了一种适应性和效率兼顾的目录识别方法。根据图书目录具有风格一致性的特点, 利用聚类技术发现目录装饰性内容, 生成具有自适应性的目录布局模型, 然后利用该模型生成目录条目及其层次关系。实验结果表明, 该方法在准确度和效率上均取得了较好的效果, 尤其是有效地处理了存在装饰性内容、折行和多种层次布局的复杂目录。该方法已应用于电子图书生产线, 显著提高了原电子目录制作系统的生产效率。

相关文章 | 多维度评价 | 评论（0）

Select

17. 基于局部感知质量评价的自适应水印

朱新山,汤帜

北京大学学报（自然科学版）

摘要（727）

为获得鲁棒性与不可感知性之间的最佳折中效果，将载体信号分成多个信号块，并为每个信号块规定一个独立的失真条件，称为局部质量评价。在检测值最大化的意义下，分别以信噪比和Watson视觉模型描述失真条件探讨了两种具体的水印实现方案，并且在给定的失真条件下推出了相应的检测值上限，然后对相关参数提供了一些实际而有效的调整策略。该方案中还引入了一种改进的线性相关检测器。它利用了载体信号的边带信息提升检测值，并从理论上对其性能进行了分析。大量实验结果表明，该方案在水印不可感知性和鲁棒性两方面均获得了非常显著的提升。

相关文章 | 多维度评价 | 评论（0）

Select

18. 一种具有硬件适应性的数字内容版权保护机制

俞银燕,汤帜

北京大学学报（自然科学版）

摘要（691）

将数字许可证与机器硬件配置标识信息绑定是数字版权保护技术普遍采用的方法。针对该方法存在的硬件适应性问题，通过将数字内容加密并将解密密钥分配给多个硬件设备绑定的方式，给出一种具有硬件适应性的数字内容版权保护机制。在保护数字内容版权的同时，在一定范围内自适应用户机器硬件环境的变更，平衡硬件设备变更和版权保护的需求。

相关文章 | 多维度评价 | 评论（0）